[レポート]深層強化学習によるトッププレイヤーレベルのAI #cedec2022 #classmethod_game #GranTurismo #GTSophy #GranTurismoSophy
最初
セッション内容
自動車レースでは、高速で走行する車両を安定させながら他の車両を追い越したりブロックしたりするなど、複雑で戦術的ドライビングを行わなければならない。PlayStation のゲームシリーズである「グランツーリスモ」では実際のレース車両にみられる非線形制御の難しさを忠実に再現しており、FIA公認の世界大会では現実のモータースポーツと同じレギュレーションでレースが行われている。本講演では、リアルドライビングシミュレーター 『グランツーリスモSPORT』において、世界最高レベルのeスポーツプレイヤーたちに勝利したAIレーサー Gran Turismo Sophy を紹介し、このチャレンジに含まれる技術課題とそれを解決した手法、そして今後の展望について述べる。
この開発では、モデルフリー深層強化学習アルゴリズムと混合シナリオによる学習の組み合わせ、さらにクラウドゲーミングインフラストラクチャー上の多数のPlayStation 4を利用した大規模な分散学習によって、並外れたラップタイムと優れた戦術を兼ね備えたレーシングAIを学習させた。このAIは様々なドライビングスキルをその時々の状況に応じて自在に使いこなすだけでなく、世界トップレベルのプレイヤーたちを相手に、レースのマナーを尊重しながらも互いに安全限界のぎりぎりでしのぎを削るエキサイティングなレースを行うことができた。この結果をもとに、ゲーム内の複雑で動的なシステムの実時間制御に対して深層強化学習手法を用いることの可能性と課題についても議論する。
セッション講演者
- (株)ポリフォニー・デジタル CTO 高野修一
- 株式会社ソニーAI, Tokyo Laboratory, Senior AI Engineer 河本献太
前半(GT Sophyの紹介・AI開発など)
Gran Turismo Sophyとは?
Gran Turismo Sophyはなんですか? - 深層強化学習を使用した革新的なレーシングAIエージェント - GTのトップドライバーと競い合いながら、新たなゲーム体験を創り出すために作られたもの
昔からゲームAIがあったんですが、Sophyはリアルタイムで処理されるので、過去のAIと違います。
Race Together 2021
(AI)GT Sophy 4名と(人間)GTシリーズの世界トップドライバー4名、三つのレースコースのポイント制チーム戦が2021年に2回行われました。
1回目の試合は人間チームが勝ったんですが、2回目はAIの方が圧勝でした。
トップドライバーに、「AIと競争することを忘れてしまって、すごく楽しかったです」や「GT Sophyのレース・テクニックに興奮させてられて、たくさんインスピレーションを受けました」というコメントをいただきました。この試合でAIの可能性を示すことになっていると思われます。
GT Sophy / Rece Together 2021の成果と技術が国際科学業界にも高く評価されました。
Gran Turismoとは
Gran Turismoはプレイステーション用のドライビングシミュレーターです。
GT Sophyが「Race Together 2021」イベントではGT Sportsに使用されたが、現在は2022年3月発売されたGran Turismo 7を中心に開発されています。
Gran Turismoにはエンジン特性、路面の摩擦、天候の変化などいろんな物理要素が含まれています。
AIの開発について
開発者のゴールはGT Sophyで「自分の技術を磨く」と「もっと楽しくプレイしたい」両方とも実現できることです。
GT Sophyは従来のAIと違って、嘘つくやブーストをせずに、人間のような技術を持たせています。
プレイステーション専用のゲームソフトなんですが、AIの開発には独立した開発環境が望ましいので、ゲーム内の情報を取得し、REST APIでネット上のLinux AIエージェント介してAiを動作させています。
プレイステーションへのGT Sophyの実装については
- 大きなネットワーク性能が必須ではないですが、10MBぐらいが必要
- ハードウェアに制限される部分があって、現時点(2022年8月)はPS5のみとなっています
- ゲーム自体は60hzでレンダリングされてますが、GT Sophyは10hzで(0.1秒一回の処理となる)動いてます
後半
Gran TurismoにAI実装の難点
- 路面、地形、タイヤなど様々な要素が絡み合うシミュレーション
- 計算時間と応答時間に制約されてます
- 人間としても多くの時間をかけて才能がある方だけがうまくなりますが、AIをうまくさせることは簡単ではありません
- 自動運転だけではなく、車の運動性能の限界を追求しながらスポーツマナーも持たなければならない
- 相手の行動や瞬時の状況で判断し、同じような状況でも違う判断することも必要です
GT Sophyは既存ゲームAI技術を運用した深層機械学習のアプローチで作られたものです。
レースに必要な技術としては:
- 車の操作
- 運転技術
- マナー(フェアプレイの精神)
いろんな理論を試して、結局複数のアプローチを含めたend-to-end(白紙から)という方法にしました。
車の位置、姿勢、速度、タイアの加重・スリップアングルなどは入力として扱われていって、そして報酬信号をつけてAIを訓練されています。
QR-SACアルゴリズム
QR-SAC
という新しいアルゴリズムを使って、現在の局面だけではなく、これから多くの展開の確率も計算されます。
これで学習の安定性が向上し、最終性能も改善されました。
DARTプラットフォーム
DARTというクラウドインフラストラクチャを使って、大規模な非同期分散機械学習が行われました。
学習結果
- 4時間:初心者以下
- 8時間:中級者
- 24時間:上級者
- 一週間:世界トップ級
レースマナーの重要性
レーシングにはマナーが明確定義されてなくいですが、譲りすぎず、アグレッシブすぎずに、青色マナーがよくて、勝率が高い領域を目指したいです。
他のゲームAIとの違い
他のゲームは、ルールが明確定義され、計画的に行動する場合は多いですが、Gran Turismoにはリアルタイムで非線形な情報を処理した上で、フェアプレイというマナーを守りつづ行動します。
今後の課題と目指すもの
- 相手のレベルに合わせて、単なる速度の調整ではなく、スキルを合わせるようにレーシングする
- そのタイミングで判断だけではなく、戦略で作戦するようにレーシングする
- レースマナーをもっと深く理解させたい
人をワクワクさせる、ゲームがもっと楽しくなるAIを作りたく、ゲームデザインに新しい可能性を持たせるのが開発者たちが目指しているものです。